[Home] AI로 돌아가기
[관련 링크] Learning - 학습
[관련 링크] Deep Learning (DL) - 딥러닝
[Wikipedia] Reinforcement learning

강화학습 (Reinforcement Learning)

(1) 기본 개념

강화학습은 에이전트(Agent)가 환경(Environment)과 상호작용하며, 보상(Reward)을 최대화하는 방향으로 학습하는 기계학습의 한 분야이다.

강화학습은 지도학습처럼 정답을 미리 알지 않고, 에이전트가 시도한 행동의 결과에 따라 주어지는 보상 값을 기반으로 학습한다. 이는 시행착오를 통해 더 나은 전략(정책)을 스스로 발견하는 방식이다.


[예시] 슈퍼 마리오

...
1985년 출시된 닌텐도(Nintendo)’의 마스코트 마리오

오락실에서 유행한 게임 중 "슈퍼 마리오"가 있다. "슈퍼 마리오"는 마리오를 움직여 여러 장애물을 피하고 적을 물리쳐 제한 시간 안에 목표 지점까지 가야 승리하는 게임이다.

처음에 아무런 정보 없이 "슈퍼 마리오"를 시작하면 금방 게임이 끝나 버린다. 어떻게 적을 물리쳐야 하는지, 장애물은 어떻게 피해야 하는지 알지 못하기 때문이다. 그러나 게임을 한두 번 해 보면 방법을 차차 알게 된다.

이처럼 게임 방법을 배우는 과정은 "슈퍼 마리오"에만 해당하는 것이 아니다. 게임 외의 영역에서도 일상생활 속에 존재하는 인간의 자연스러운 학습 과정이다.

인간의 사고 방식을 모방한 인공지능에서도 이러한 시행착오를 통한 학습이 이루어진다. 시행착오를 겪으며 계속 학습하는 방식, 이것이 바로 강화 학습이다.

(2) 주요 구성 요소

...
강화 학습: 게임을 하면서 경험을 통해서 실력을 키워가는 게이머
출처: https://opentutorials.org/course/4548/28949

(3) 강화학습의 절차

강화학습은 다음의 반복 루프를 통해 학습이 이루어진다.

  1. 에이전트가 환경의 상태(State)를 관찰한다.
  2. 현재 정책에 따라 행동(Action)을 선택한다.
  3. 환경은 새로운 상태와 보상(Reward)을 반환한다.
  4. 에이전트는 해당 보상 정보를 기반으로 정책 또는 가치 함수를 업데이트한다.
  5. 이 과정을 수천 ~ 수백만 회 반복하며 성능을 개선한다.

(4) 대표 알고리즘

강화학습에는 다양한 알고리즘이 존재하며, 대표적인 것은 다음과 같다.

(5) 보상모델과 활용

보상모델은 명시적인 보상이 존재하지 않는 복잡한 환경에서, 인간 또는 AI 피드백을 바탕으로 행동의 품질을 평가하여 강화학습에 활용된다.

예: 언어모델에서는 다음과 같은 절차로 보상모델을 사용한다.

  1. 프롬프트에 대한 응답을 모델이 여러 개 생성한다.
  2. 사람 또는 AI 평가자가 응답의 선호도를 순위화한다.
  3. 이 데이터를 이용해 보상모델을 학습한다.
  4. 보상모델이 응답의 품질 점수를 예측하게 된다.
  5. 이 보상모델을 기반으로 언어모델을 RL로 학습한다 (예: RLHF, RLAIF).

(6) 활용 사례

(7) AlphaGo와 강화학습

AlphaGo는 인간 기보로 초기 학습한 뒤, 자기대국(self-play)을 반복하며 강화학습으로 전략을 개선했다. 알파고 제로는 인간 데이터 없이 바둑 규칙만으로 강화학습을 수행해 기존 AlphaGo를 압도했다.

“강화학습은 AI가 자율적으로 판단하고, 경험을 통해 개선할 수 있는 길을 열었다.” – 데미스 하사비스